Titres :
-> exemples de projet/état des lieux du paysage
-> un lexique
-> Une checklist pré-lancement de projet.
-> Un arbre de décision en fonction des moyens/ambitions des projets.
-> une “biblio”/contacts/liste d’outils
=> parler de la définition d’intelligence artificielle
Dans un contexte IA, les annotations sont les données que l’on va utiliser pour entraîner ou réentrainer un modèle. La forme de l’annotation dépend du modèle que l’on veut entraîner ou réentrainer. La transcription d’une zone de texte est une annotation dans un contexte d’OCR/HTR. Un “tag” associé à l’image est une annotation pour un modèle de classification. Une zone délimitée sur une image est une annotation pour un modèle de segmentation. Obtenir des annotations de qualité est un enjeu primordial dans n’importe quel projet IA.
Un chatbot est un logiciel conçu pour interagir avec un utilisateur au travers d’échanges textuels ou vocaux. Cette technologie préexiste aux LLMs et à l’émergence de l’IA mais a passé un cap en étant associés à des LLMs. Grâce à eux le chatbot peut converser avec l’utilisateur dans un langage naturel. C’est probablement l’application de l’IA la plus connue du grand public. Un chatbot IA est souvent nommé d’après le modèle qui le fait fonctionner.
Ex : ChatGPT, Le Chat (Mistral), Claude, Gemini…
La Computer Vision ou vision par ordinateur en français, sont l’ensemble des technologies permettant l’interprétation d’images par une machine. L’OCR, l’HTR, la segmentation d’images ou encore la détection d’objets sont des applications possibles de Computer Vision.
L’entraînement est le moment où l’on commence à alimenter en données un algorithme ou modèle pour qu’il se modifie jusqu’à atteindre les résultats qu’on désire. Un entraînement peut se faire à partir d’informations fournies par un humain (approche supervisée) ou sans intervention extérieure (approche non supervisée). Cette étape demande une puissance de calcul (et donc une quantité de GPUs) considérable. Le réentraînement est le fait de faire subir un nouvel entraînement à un modèle existant pour le modifier et l’adapter à nos besoins spécifiques.
Le finetuning est l’ensemble des manipulations que l’on fait sur un modèle pour améliorer ses résultats. Le finetuning peut passer par la modification de paramètres, d’un prompt, ou encore par un réentraînement.
Un GPU, ou Graphic Processing Unit est une unité de calcul assurant les fonctions de calcul d’image. Originellement les GPUs ont été développés pour les jeux vidéos et le calcul de déplacements en 2 ou 3 dimensions. Avec l’émergence de l’IA, la communauté scientifique s’est rendue compte qu’ils étaient bien plus efficaces pour le calcul des vecteurs qu’utilisent la plupart des modèles d’IA que les CPUs (ou processeurs) traditionnels de nos ordinateurs. L’utilisation de GPUs accélère grandement le traitement par IA de données. Avoir un GPU est même nécessaire pour les modèles les plus lourds et les entraînements/réentraînements. Le GPU est le coeur de ce qu’on appelle plus couramment les cartes graphiques.
Un LLM, ou grand modèle de langue, est un modèle IA possédant un grand nombre de paramètres et capable de communiquer en langage naturel. Il est entraîné sur des grandes quantités de texte.
Un modèle de langue est un modèle probabiliste de la distribution d’éléments linguistiques (lettres, phonèmes, mots) dans une langue naturelle. Les plus connus sont des modèles génératifs qui calculent le mot suivant ou la lettre suivante dans une séquence de mots, selon un contexte, pour interagir avec l’utilisateur.
Ex : GPT-4, DeepSeek-R1, Llama-3 …
Un modèle IA est un algorithme capable (avec plus ou moins d’efficacité) d’effectuer un ensemble de tâches pour lesquelles on l’a entraîné. Il reçoit un type de données en entrée, et en propose un autre en sortie. Le terme “modèle” s’applique en IA peu importe le domaine. On appelle un modèle qui peut recevoir plusieurs types de données en entrée (par exemple texte ET image), un modèle multimodal. On distingue aussi généralement les modèles spécialisés, capables de réaliser une unique tâche (par exemple détecter les visages sur une image), des modèles généralistes capables de réaliser des tâches très variées (comme la plupart des LLMs). Les modèles spécialisés requièrent habituellement moins de puissance de calcul que les généralistes.
Ex : YoloV8 reçoit une image en entrée, et propose les coordonnées et le nom d’objets détectés sur l’image en sortie. Tesseract-ocr reçoit une image de texte imprimé et propose une transcription en sortie.
OCR (pour Optical Caracter Recognition) et HTR (pour Handwritten Caracter Recognition) sont les noms données à la transcription automatique de texte imprimé (pour l’OCR) et manuscrit (pour l’HTR). L’OCR est une technologie ancienne qui a émergé dès les années 1960 pour des tâches comme le tri du courrier.
Ex : Tesseract-ocr, pero-ocr, monkey-ocr…
La post-correction est le travail que l’on fait après l’application d’un modèle d’IA pour rattraper les erreurs qu’il commet. Selon les situations la post-correction sera nécessaire ou non. Selon les situations elle peut également être automatisée par IA.
Le RAG (ou Retrieval Augmented Generation) est une méthode permettant de donner de grosses quantités d’informations à une IA type LLM. Pour cela l’utilisateur va transformer en une base de vecteurs abstraits les données qu’il ou elle veut fournir à son IA, ce qui permettra à l’IA de prendre en compte une plus grande quantité d’informations que si elles étaient fournies en langage naturel. Cette technique permet notamment de doter des LLMs de connaissances plus précises dans un domaine particulier.
AUTOMATA, est une initiative européenne, à laquelle l’INRAP française est associée, qui vise à automatiser entièrement le processus de numérisation et de documentation de vestiges archéologiques lithiques et céramiques. Le projet inclut tout un volet robotique et mobilise des modèles IA pour analyser les objets traités et fournir facilement une grande quantité de données sur des corpus homogènes aux archéologues.
Pour plus d’information sur le projet AUTOMATA : https://www.inrap.fr/automata-experimentation-de-numerisation-enrichie-automatisee-de-vestiges-20056
Le projet ANR EIDA, porté par le LIGM de l’école des Ponts et le SYRTE de l’observatoire de Paris. Ce projet a permis de mettre au point une plateforme (appelée Aikon) pour identifier et rapprocher des diagrammes astronomiques similaires dans des manuscrits eurasiens à travers les époques. L’IA a principalement été mobilisée pour extraire des diagrammes de manuscrits, puis identifier les diagrammes semblables. La diversité des sources mobilisées par le projet a forcé à des adaptations et à une représentation desdits diagrammes dans un espace vectoriel, pour que leur taille réelle soit ignorée par l’algorithme de similarité. La plateforme Aikon est aujourd’hui accessible en open-source, elle a depuis été améliorée pour les besoins d’autres projets.
Pour plus d’informations sur le projet EIDA : https://eida.hypotheses.org/
Le projet GallicaPix est un projet de la BNF, visant à faciliter la recherche dans les collections d’images de Gallica en mobilisant des outils IA. L’IA permet dans le cadre de ce projet d’affiner la recherche en déterminant le type d’objet physique qu’est l’image si la métadonnée est manquante, de lire les inscriptions sur l’image si le cas se présente, de repérer certains éléments figuratifs sur l’image, et de prendre en compte la structure de celle-ci (par exemple le découpage d’une affiche ou d’une page de journal).
Pour plus d’informations sur GallicaPix : https://gallica.bnf.fr/accueil/fr/html/gallicapix-un-nouvel-outil-dexploration-iconographique
Ce projet ANR débuté en 2025 cherche à étudier la circulation des images des fonds des agences de presse dans les journaux du début du XXe siècle, il est réalisé en partenariat entre le laboratoire Echelles de l’université Paris Cité, le LIP6 de Sorbonne Université, le Lipade de Paris Descartes et le Service Historique de la Défense. Le projet mobilise l’IA pour retrouver les images d’agences de presses dans les journaux où elles ont été utilisées, mais aussi transcrire par exemple les commentaires de l’agence de presse, tenter d’associer les légendes attribuées par les journaux à chaque image, et même potentiellement identifier les retouches dont elles ont été la cible.
Pour plus d’informations sur le projet Highvision : https://highvision.hypotheses.org/
Le projet Hikaria, mené au musée Guimet en partenariat avec la société TEKLIA, a permis le développement d’une plateforme visant à mettre en valeur les photographies du Japon de la fin du XIXe siècle des carnets Dubois (17 000 images) et d’autres sources en ligne. Dans le cadre de ce projet l’IA a été mobilisée avec un grand succès pour extraire les photos des carnets numérisés et rapprocher les images se ressemblant les unes des autres. Le projet a aussi tenté d’attribuer automatiquement grâce à un LLM génératif un ensemble de “tags” aux images venant compléter les classifications faites par des humains, avec des résultats de qualité variable.
Pour plus d’informations sur HikarIA : https://hikaria.org/
TORNE-H est un projet de computer vision et d’introduction de l’IA dans des collections muséales. Pendant un an le projet s’est établi sur les collections du Musée des Arts Décoratifs. Il a deux buts principaux : développer un modèle de reconnaissance par ordinateur entraîné sur la collection du designer Jean Royère afin d’identifier les modèles et les spécificités des meubles de Royère à partir de gouaches, de calques d’exécutions et de photographies noir et blanc. Et deuxièmement de former, d’informer et de formuler en des termes informatiques les besoins métiers des conservateurs et conservatrices du musée dans leur gestion au quotidien des collections. En cela, le projet explore tout aussi bien les limites matérielles qu’humaines qui entourent l’introduction de l’IA au musée, avec les enjeux que posent la dette technique d’une institution ou les exigences de scientificité du travail de conservation.
Pour plus d’informations sur le projet Torne-H : https://www.chartes.psl.eu/recherche/centre-jean-mabillon/projets-de-recherche/torne-h-traitement-dobjets-par-reconnaissance-numerique-en-environnement-humain-henrot
Ukiyo-e est un projet de base de données d’estampes japonaises remontant à 2012. Une technologie appelée le “MatchEngine” est mobilisé dans son cadre pour retrouver des estampes similaires parmi la base de 200 000 estampes que la plateforme contient, permettant aux chercheurs et aux chercheuses d’étudier les copies et les circulations des motifs à travers l’espace et le temps. C’est un exemple typique de réalisation pour laquelle on pourrait être tenté d’utiliser un outil IA mais où ce n’était pas nécessaire.
La plateforme ukiyo-e : https://fr.ukiyo-e.org/
Nous avons rassemblé ici une liste de questions importantes à se poser avant de lancer un projet IA ou de déployer une solution IA dans une institution. Il n’y a pas une bonne ou mauvaise réponse à chaque question tant les choses peuvent varier d’une situation à l’autre, mais il vaut mieux penser à des réponses avant de se lancer. De la même manière certaines questions ne s’appliqueront pas nécessaires à toutes les institutions, un musée national n’aura pas nécessairement les mêmes problématiques ou ambitions qu’un service d’archives départementales.
Nous reprendrons ici la tripartition “Personnes-Modèles-Données” proposée par la librairie du congrès américain pour organiser les questions. L’institution représentera ici l’équipe, laboratoire, musée ou autre qui se lance dans un projet IA. Les “données” seront le matériau, peu importe sa nature, sur lequel on veut appliquer un processus IA.
Est-ce que les gens concernés de mon institution seront capables, d’un point de vue technique, d’utiliser le service IA que je pense déployer ?
Est-ce que mon institution sera capable sur le long terme d’assurer la pérennité du système IA que je pense déployer/développer ?
Est-ce que mon institution possède en interne les connaissances ou compétences nécessaires pour suivre d’un point de vue technique l’évolution du projet ?
Est-ce que l’institution dispose de personnes compétentes et disponibles s’il faut évaluer/corriger les résultats du processus ou service IA ?
Quels types de tâches aurais-je besoin que l’IA effectue dans le cadre de mon projet (segmentation, classification, similarité, description en langage naturel…) ?
Est-ce que j’aurai besoin de créer/réentraîner un modèle, ou un modèle adapté réalisant les tâches qui m’intéressent existe-t-il déjà ? Selon les besoins du modèle que je compte utiliser où réentraîner, de quelle puissance de calcul mon institution dispose-t-elle ?
Est-ce que j’ai des empêchements légaux ou éthiques à l’usage de certains modèles ?
Quel niveau de précision ai-je besoin que mon modèle ait ? Est-ce que l’institution est prête à accepter les marges d’erreurs inhérentes aux traitements IA, et sinon quelles solutions de post-correction ai-je à disposition ?
De quel type sont les données dont je dispose ? S’il s’agit d’images/sons/vidéos les captations sont-elles d’une qualité suffisante pour le traitement que j’envisage ?
Quel temps ferait gagner l’usage d’un modèle IA comparativement à un processus humain ou informatique simple pour traiter la quantité de données dont je dispose ?
Est-ce que je devrais faire mes traitements IA sur des serveurs internes, ou est-ce que mes données peuvent être partagées avec des entreprises tiers ? Si je ne peux pas partager mes données, de quels serveurs dispose mon institution ?
Lien : https://developers.google.com/machine-learning/glossary
Ce glossaire extrêmement complet, contient à peu près tous les termes et expressions relatifs au machine learning dont vous pourriez avoir besoin. Il faut noter cependant qu’il a été rédigé en anglais et que la traduction française n’est pas toujours très bonne. Destiné à des développeurs, les définitions sont également parfois complexes d’un point de vue technique.
Lien : https://pictoria.hypotheses.org/1673
Ce Lexique, plus court que le glossaire Google, mais tout de même bien fourni, a été réalisé par Jean Christophe Carius, du service numérique de la recherche de l’INHA pour le compte de PictorIA. Il a été rédigé en français et évite donc les problèmes de traduction de celui de Google.
Lien : https://github.com/LibraryOfCongress/labs-ai-framework
Ce Repository Github contient un guide de la Librairie du Congrès américaine consacré à l’usage de l’IA dans les institutions patrimoniales. Il découpe les problématiques de l’IA en notions simples généralisables à la plupart des usages et fournit un ensemble de fiches à remplir pour cadrer les enjeux et défis d’un potentiel projet. Ce “Framework” n’est aujourd’hui disponible qu’en anglais.
Lien : https://huggingface.co/
Cette plateforme mise en place par une entreprise privée sert de dépôt pour les chercheurs et chercheuses utilisant l’IA du monde entier. Elle contient des centaines de modèles IA et de jeux de données, disponibles au téléchargement. Elle permet aussi, via des appels d’API, d’intégrer directement des jeux de données ou des modèles IA à votre code.
Lien : https://htr-united.github.io/index.html
Cette plateforme mise en place par une équipe de l’INRIA a pour objectif de rassembler et mettre à disposition le plus possible de jeux de données utilisables dans le cadre de projets d’HTR (Handwritten Text Recognition, ou transcritpion automatique d’écriture manuscrite). Elle fonctionne sur une base participative, les datasets sont partagés par les différents projets et ensuite récupérables sur la plateforme pour être réutilisés.
Lien : https://themuseumsai.network/
Ce site web contient les travaux d’une initiative universitaire anglaise en faveur d’un usage intelligent de l’IA dans les musées. Leur “Toolkit”, où boîte à outils, de la même manière que le “framework” de la librairie du Congrès, présente de manière pédagogique les enjeux et problématiques inhérentes à la réalisation d’un projet IA dans un contexte muséal. Si les exemples de projet donnés dans le “Toolkit” concernent plus l’application de l’IA dans un contexte de gestion du musée que des collections comme c’est le cas dans la plupart des projets que nous présentons, le cadre théorique qu’il présente reste globalement pertinent pour tout projet IA. Il n’est aujourd’hui pas traduit en Français.
Lien : https://ai4lam.github.io/awesome-ai4lam/
Ce site a été créé par la communauté AI4LAM (LAM étant l’acronyme anglais de Librairies - Archives - Museums), une communauté internationale rassemblant des professionnels de ces milieux et d’informatique consacrée aux usages de l’IA dans le contexte patrimonial. Le site contient une liste très fournie de liens vers des matériaux d’apprentissage, outils, jeux de données, recommandations, publications ou encore exemples de projets consacrés à l’utilisation de l’IA dans le contexte patrimonial. Le site n’est pas traduit en français.
Cette section du guide présente un ensemble d’outils pouvait permettre de traiter des images par IA. Leurs statuts sont très variables, certains sont développés par des entreprises privées, d’autre non, certains sont open-source, d’autres propriétaires, certains sont installés en local, d’autres sur les serveurs de l’institution qui les utilise, d’autres encore une plateforme en ligne… Cette liste n’est pas exhaustive et est principalement basée sur le point commun de leur usage au sein de PictorIA et de ses partenaires.
Cette application a été développée par le CERES de l’université Paris Panthéon-Sorbonne. Facile d’usage, elle permet de très rapidement trier et annoter des corpus d’image massifs. Elle utilise le moteur CLIP pour rassembler des images en “clusters” sur la base de leur ressemblance où à partir de langage naturel. Les utilisateurs et utilisatrices ont ensuite la possibilité d’associer des mots clés aux images en fonction des résultats de ces manipulations, où à la main directement.
L’application est gratuite. L’application est open source. L’application ne demande pas un bon niveau en informatique. L’application ne demande pas de GPU.
Documentation de Panoptic : https://ceres.sorbonne-universite.fr/Panoptic/
Cette application a été développée par l’entreprise HumanSignal, elle permet d’annoter manuellement selon différentes modalités (bounding boxes, masks, polygones…). Elle permet également de tester en direct des modèles de computer vision sur des images sans réentraînement, même si l’implémentation desdits modèles est plutôt complexe. Cette application est un bon outil pour l’annotation de corpus d’images pour l’entraînement ou l’évaluation de modèles de computer vision.
L’application est gratuite, mais l’entreprise propose une version payante avec support et hébergement intégré. L’application est open source. L’installation de l’application et l’implémentation (facultative) de modèles en son sein demandent un bon niveau technique, l’utilisation pour la seule annotation est simple. L’application ne demande pas de GPU pour les tâches d’annotation.
Documentation de LabelStudio: https://labelstud.io/guide/
Cette application a été développée par l’entreprise Teklia, elle permet d’appliquer différents traitements IA à des images via des workers développés par l’entreprise ou personnalisés. Les traitements en question vont de tâches d’OCR simples à des inférences LLM en passant par des détections automatiques d’objets. L’application permet également de réaliser des annotations d’images en vue du réentraînement ou de l’évaluation de modèles de computer vision. Arkindex peut fonctionner en tandem avec l’application Callico, qui permet d’organiser des campagnes collaboratives d’annotation à grande échelle.
La base de l’application est gratuite, mais l’entreprise propose de payer pour ses services de support, d’hébergement et de travail sur les workers. L’application est open source. Le déploiement de l’application demande un bon niveau d’informatique, l’utilisation des workers demande un niveau variable selon les usages, l’annotation est plutôt simple, l’annotation dans Callico est très simple. L’application demande un GPU pour la plupart des tâches.
Documentation d’Arkindex: https://doc.teklia.com/arkindex/
Documentation de Callico: https://doc.teklia.com/callico/
Cette application a été développée en marge du projet ECR Discover par des équipes de l’école des ponts et de l’observatoire de Paris, elle est destinée à l’étude de larges corpus historiques grâce aux possibilités de la Computer Vision par IA. L’application permet ainsi d’extraire les illustrations d’images contenant illustration et texte, de chercher des motifs similaires d’un document à un autre ou encore de retrouver des motifs à partir de modèles pré-entraînés.
L’application est gratuite, avec la possibilité de demander l’accès à une plateforme de test. L’application est open source. Le déploiement de l’application est complexe, son usage est relativement simple. L’application peut demander un GPU ou non selon les modèles que l’on veut appliquer.